Dé hier 


$62 4 F 13H 2018 年 7 月 


# f SNA fe DMR 方法 的 高 血压 主题 探测 与 演化 趋势 
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摘要 : [目的 /意义 ] 探 测 高 血压 医学 文献 的 主题 和 演化 趋势 ,对 发 现 高 血压 领域 的 研究 热点 和 前 沿 ,理解 
高 血压 领域 概况 和 促进 专家 之 间 的 知识 交流 具有 重要 意义 。[ 方 法 /过 程 ] 以 PubMed 数据 库 下 载 的 26 717 篇 
与 高 血压 相关 的 文献 题 录 数 据 作 为 研究 对 象 ,抽取 高 频 主 题词 构造 共 现 矩阵 ,同时 采用 社会 网 络 分 析 (SNA) 和 
犹 利克 雷 多 项 回归 (DMR) 主 题 模型 从 中 观 、 微 观 层面 探测 高 血压 医学 文献 的 主题 分 布 和 演化 趋势 ;比较 这 两 种 
法 的 关联 和 异同 点 。[ 结果 /结论 ] 研究 发 现 ,高 血压 医学 文献 主要 集中 在 危险 因素 、 研 究 方法 、 基 本 要 素 、 诊 
断 治 疗 和 动物 实验 这 5 个 研究 主题 ,主题 的 相对 分 布 比率 随 着 时 间 变 化 而 不 断 改 变 。 利 用 SNA 方法 获取 的 主 
司 更 加 具体 和 明确 ,而 DMR 方法 获取 的 主题 词 更 加 宽泛 ,但 在 探索 各 个 主题 的 演化 趋势 方面 比较 有 优势 。 
O 关键 词 : 高 血压 ”主题 探测 SNA DMR 主题 模型 ”演化 趋势 
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高 血压 是 最 常见 的 慢性 病 , 也 是 心 脑 血管 疾病 的 进行 全 貌 概览 和 热点 跟 进 。 


oe eee 很 多 学 者 开始 尝试 使 用 文献 计量 学 的 方法 来 研究 


MeF 前 我 国 约 有 2 亿 高 血压 患者 ,每 5 个 成 年 人 中 有 高 血压 医学 文献 。 文 献计 量 学 是 一 种 利用 定量 和 统计 
LABRIE o RERS BERRA RHR 。 分析 来 描述 文献 在 一 个 给 定 的 字段 或 主体 中 的 出 版 模 
证 能 导致 一 半 左 右 的 中 风 和 心脏 病 患者 死亡 ,全 球 每 e Y, S. Oh 和 ZS，Galis" 利用 引文 分 析 和 内 容 
F940 万 人 死 于 高 血压 ”。 我 国 高 血压 患者 死亡 人 分 析 等 文献 计量 学 方法 ,识别 和 验证 了 近 百 年 来 发 表 
数 占 总 死亡 人 数 的 46% ,心血 管 疾病 占 26.9% , 产 重 。 的 关于 高 血压 研究 引用 率 最 高 的 100 篇 文献 的 关键 特 
消耗 了 医疗 资源 和 社会 资源 ,给 家 庭 ` 社 会 和 国家 都 造 征 , 包 括 引 文 排名 、 出 版 年 份 .出 版 杂志 ,文献 类 型 . 国 
成 了 沉重 负担 。 因 此 , 越 来 越 多 的 学 者 、 互 联网 巨头 、 ”家 .资金 来 源 和 作者 身份 等 。C，Sehreiber 等 中 利用 文 
医药 巨头 们 开始 投身 于 高 血压 领域 的 研究 。 而 与 高 血 献计 量 学 研究 了 2000 -2014 年 间 出 版 的 关于 肺动脉 
压 相关 的 生物 医学 文献 ,作为 医学 知识 传播 和 继承 的 。 ”高 血压 临床 治疗 方面 的 文献 ,以 期 发 现 肺动脉 高 血压 
载体 ,其 中 隐 含 了 大 量 有 用 潜在 的 信息 。 但 是 生物 医 的 研究 特征 ,影响 因素 和 起 源 国家 。M，Gotting 等 四 
学 文献 的 数量 正在 呈 爆 炸 式 增长 , 仅 在 PubMed 数据 从 Web of science 中 检索 到 了 1900 - 2015 年 间 关 于 肺 
库 中 ,以 “Hypertension ”为 检索 词 ,就 检索 到 284 322 篇 动脉 高 血压 的 文献 ,并 对 其 出 版 的 国家 分 布 . 时 间 分 
与 高 血压 相关 的 文献 ,时 间 截 至 2017 年 5 月 12 日 。 布 .作者 分 布 .被 引 情 况 以 及 h - 指数 等 进行 了 分 析 。 
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但 是 ,这 些 研究 都 集中 在 宏观 层面 (包括 主要 研究 国 
家 机构、 作者 等 等 ) ,缺乏 对 中 、 微 观 层面 的 社 群 分 布 
和 主题 演化 的 深入 分 析 。 

探测 高 血压 医学 文献 的 主题 分 布 和 演化 趋势 ,对 
发 现 高 血压 领域 的 研究 热点 和 前 沿 , 理 解 高 血压 领域 
概况 和 促进 专家 之 间 的 知识 交流 具有 重要 意义 。 现 有 
的 比较 流行 的 主题 识别 主要 集中 在 两 个 方向 :一 种 是 
基于 社会 网 络 分 析 (SNA) 方 法 的 主题 和 社 群 探测 , 男 
一 种 是 基于 主题 模型 的 主题 识别 ”。 本 文选 取 了 
PubMed 生物 医学 文献 数据 库 中 2000 — 2017 年 间 发 表 
的 26 717 篇 与 高 血压 相关 的 文献 题 录 数据 ,分 别 采 用 
社会 网 络 分 析 和 狄 利克 雷 多 项 回归 (Dirichlet -multino- 


题 分 析 , 不 具有 了 时效 性 。 

社会 网 络 分 析 方 法 是 在 人 类 学 、 社 会 学 .心理 
学 \ 统 计 学 等 领域 的 基础 上 发 展 起 来 的 一 种 研究 范式 
和 方法 ,被 广泛 应 用 于 数据 挖掘 、 知 识 管理 ,信息 传 
播 .知识 网 络 ”“ ”数据 可 视 化 等 研究 中 。 社 会 网 络 
是 指 社会 行动 者 及 其 之 间 关 系 的 集合 ,主要 是 对 网 络 
中 的 各 种 实体 之 间 的 关系 结构 和 属性 进行 测量 、 分 析 
和 预测 。 在 学 术 文献 中 ,学 者 们 在 阐述 某 一 领域 执 
点 时 ,会 采用 相同 或 相近 的 词语 来 表达 ,海量 文本 数据 
之 间 的 关系 可 以 通过 文本 的 主题 词 联系 起 来 ,形成 
大 的 词语 网 络 。 引 入 社会 网 络 分 析 能 够 更 加 清晰 地 、 
可 视 化 地 展现 主题 词 之 间 的 关系 网 络 ,为 分 析 主 题词 


[Ol 


mial Regression , DMR ) 主题 模型 方法 来 探测 高 血压 医 


的 重要 程度 、 主 题词 在 网 络 中 的 位 置 以 及 与 主题 词 相 


学 交 献 的 主题 分 布 和 演化 趋势 ,对 高 血压 生物 实体 网 
络 和 内 容 进行 深入 的 分 析 和 描述 ,探讨 某 一 时 间 下 主 
题 的 局 部 变化 ,以 及 显著 的 高 血压 生物 实体 之 间 的 相 
攻 稳 用 。 同 时 ,对 这 两 种 方法 获得 的 主题 和 演化 趋势 
进入 比较 ,分 析 这 两 种 方法 的 关联 和 异同 点 。 


2 ”相关 研究 回顾 


A 基于 共 词 分 析 *- 和 引文 分 析 中 的 热点 主题 发 现 
SBS 已 经 被 众多 学 者 研究 ,其 发 展 成 熟 , 普 及 度 很 高 。 
DSR. Swanson!" LYE 1987 年 就 采用 词语 共 现 的 方 
法 3 和 出 了 基于 生物 医学 文献 的 知识 发 现 ,引入 ABC 
理 话 以 潜在 的 知识 实体 来 挖掘 ,推断 隐藏 在 文献 中 没 
有 宣 接 联系 的 生物 实体 之 间 的 关联 ,从 而 解决 生物 医 
学 文献 的 信息 孤岛 问题 。 但 是 ,单纯 的 采用 词语 共 现 
的 画 法 进行 分 析 , 需 要 研究 者 具有 很 强 的 专业 医学 知 
识 , 并 且 需 要 大 量 的 人 工 操作 。 因 此 ,很 多 学 者 在 此 基 
础 上 做 出 了 很 多 改进 , M. D. Gordon 和 R. K. Lind- 
say ZE D. R. Swanson 实验 的 基础 上 采用 词 频 统 
计 \TF-IDF 等 信息 检索 方法 来 发 现 不 可 能 被 简单 、 标 


关联 的 词语 提供 有 效 的 支持 ”。M. L. Wallace 等 
利用 两 个 案例 研究 证 明了 将 社区 发 现 方法 用 于 研究 方 
向 的 识别 是 一 种 非常 理想 的 思路 , 它 能 比 传 统 的 共 被 
引 分 析 揭 示 更 多 的 知识 领域 的 结构 细节 。 因 此 ,采用 
社会 网 络 分 析 方 法 挖掘 主题 词 之 间 的 关系 网 络 以 及 探 
测 主题 社 群 是 一 个 值得 深入 研究 的 话题 。 

主题 模型 是 机 器 学 习 领 域 基于 概率 统计 模型 所 提 
出 的 主题 发 现 方法 。 主 题 模型 被 广泛 应 用 于 自然 语言 
Ab?) 、 信 息 检索 ,文本 挖掘 ”等 领域 。 在 主题 模 
型 中 ,假设 文档 集中 存在 人 个 潜在 主题 ,主题 被 表达 为 
词 项 的 概率 分 布 ,而 文档 被 表达 为 主题 的 概率 分 布 ,以 
词 袋 表示 每 篇 文档 。 主 题 模 型 起 源 于 潜在 语义 索引 
(Latent Semantic Indexing , LSI) (25] ,其 通过 奇异 值 分 解 
(Singular Value Decomposition , SVD ) 来 表达 主题 空间 , 
并 对 其 进行 语义 降 维 。T. Hoffman 进一步 在 其 基础 上 
提出 概率 潜在 语义 索引 (Probabilistic Latent Semantic 
Indexing, pLSI) ,以 概率 值 来 区 分 文档 .主题 . 词 项 之 
间 相互 关联 的 大 小 。 直 至 D. M. Blei'” 提 出 潜在 狄 利 
克 雷 分 配 (Latent Dirichlet Allocation, LDA) ,主题 模型 


= 


准 的 文献 索引 方法 发 现 的 ,但 是 主题 之 间 又 有 潜在 联 
系 的 ,可 能 有 益 于 科学 研究 探索 的 知识 。 祝 清松 和 冷 
伏 海 “采用 引文 分 析 方 法 ,以 高 被 引 论文 为 研究 对 象 
对 文献 内 容 进行 抽取 和 主题 识别 。 然 而 ,通过 共 词 分 
析 和 引文 分 析 的 主题 发 现 方法 存在 奉 干 问题 : 共 词 分 
析 结 果 独 立 于 文档 ,我 们 通常 通过 浏览 共 词 矩阵 的 聚 
类 结果 来 识别 主题 内 容 , 每 一 个 主题 表现 为 不 同 词语 
的 聚 类 ,但 是 , 若 仅 选取 一 篇 文档 ,我 们 则 无 法 探知 其 
中 所 包含 的 主题 分 布 , 这 种 分 析 结 果 与 原文 献 脱 离 的 
特征 ,降低 了 主题 分 析 的 参考 性 和 准确 性 ;而 引文 分 析 
方法 具有 小 后 性 ,难以 对 年 代 较 新 的 文档 集合 进行 主 


才 发 展 到 较为 成 熟 的 阶段 。 当 前 文献 中 所 提 到 的 主流 
的 主题 模型 ,一 般 即 指 LDA 及 其 衍生 模型 。 狄 利克 雷 
多 项 回归 主题 模型 Dirichlet -multinomial Regression , 
DMR) 是 D. Mimno 和 A. McCallum!” YE D. M. Blei 提 
出 的 LDA 模型 的 基础 上 扩展 和 衍生 而 来 的 。 该 模型 
在 文档 - 主题 分 布 中 包含 一 个 对 数 线性 先 验 概率 ,可 
以 通过 调节 观察 到 的 文档 特征 ,例如 作者 、 出 版 地 点 、 
参考 文献 和 出 版 日 期 等 ,获取 不 同 条 件 下 的 主题 分 布 。 
M. Song 等 ”利用 DMR 主题 模型 探测 老年 痴呆 症 的 
主题 分 布 和 演化 趋势 ,获得 了 很 好 的 效果 。 相 比 于 共 
词 分 析 , 在 得 到 主题 模型 的 训练 结果 后 ,任意 抽取 一 篇 
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文档 , 则 可 以 获知 文档 中 的 主题 概率 分 布 ; 相 比 于 引文 
分 析 ,主题 模型 中 的 主体 内 容 表现 为 词 项 的 概率 分 布 ， 
不 具有 清 后 性 ,主题 模型 能 够 较 好 的 反映 “词语 -主题 
-文档 "之 间 的 联系 。 因 此 ,主题 模型 在 热点 主题 发 现 
方面 具有 很 大 优势 。 

综 上 所 述 , 相 比 于 传统 的 共 词 分 析 和 引文 分 析 方 
法 ,社会 网 络 分 析 方 法 (SNA) 和 狄 利 克 雷 多 项 回归 主 
题 模型 (DMR ) 方 法 在 探测 热点 主题 方面 具有 重大 优 
势 。 本 文 的 主要 目的 是 采用 这 两 种 方法 从 中 观 和 微观 
层面 来 探测 高 血压 文献 的 主题 分 布 和 演化 趋势 ,比较 
这 两 种 方法 的 关联 和 差异 。 


3 ”研究 设计 


一 本文 的 研究 思路 与 框架 如 图 1 所 示 。 主 要 分 为 以 


下 五 个 步骤 :数据 收集 与 处 理 : 从 PubMed 数据 库 中 
收集 高 血压 文献 相关 的 标题 摘要、 年 份 . 期 刊 等 信息 ， 
然后 对 摘要 数据 做 分 词 和 去 停 用 词 等 处 理 ;@@ 基 础 文 
献计 量 分 析 : 将 处 理 后 的 数据 导入 BICOMB' ”书目 共 
现 分 析 系 统 中 ,对 其 年 份 分 布 ,期刊 分 布 和 主题 词 分 布 
等 做 基础 的 文献 计量 分 析 ;@ 高 血压 文献 主题 社 群 探 
测 : 根 据 步骤 @ 中 获取 的 MeSh 主题 词 ,对 其 构造 主题 
词 共 现 和 矩阵 ,然后 将 该 矩阵 导入 Gephic 中 ,运用 社会 网 
络 分 析 方 法 计算 主题 词 的 pagerank 值 和 中 心 度 ,识别 关 
键 节点 ,然后 对 主题 社 群 进行 探测 和 可 视 化 展示 ,并 描 
绘 其 演化 趋势 ;@ 采 用 狄 利克 雷 多 项 回归 主题 模型 ,对 
其 主题 分 布 进行 探测 ,并 研究 主题 随时 间 演 化 的 趋势; 
@ 对 步骤 @、@ 中 得 出 的 分 析 结 果 进 行 比较 和 验证 。 


| | 基础 统 


主题 词 分 布 计 分 析 


3rd 数据 收集 与 处 理 

T PubMed 中 使 用 "Hypertension | MeSH Terms | 
AND (“2000/1/1” [ PDat] : “2017/5/1” )” y Re 48 
略 , 共 检 索 到 2000 年 以 来 与 高 血压 有 关 的 文献 99 252 
篇 ,选取 同时 包含 摘要 和 全 文 的 文献 题 录 信 息 ,共计 
26 717 篇 ,检索 时 间 截 至 2017 年 5 月 ,保存 为 XML 格 
式 , 这 是 本 文 的 研究 对 象 。 

将 这 些 数据 导入 书目 共 现 分 析 系 统 ( Bibliographic 
Items Co-occurrence Matrix Builder, BICOMB ) 中 ,该 系统 
可 对 PubMed 数据 库 .引文 数据 库 SCI、 中 国 知 网 CNKI 
等 数据 库 中 的 书目 信息 进行 快速 读 取 、 准 确 提 取 字 段 
并 归 类 存储 统计 ,并 生成 书目 数据 的 共 现 和 矩阵。 通过 
对 期 刊 \ 作 者 主题 词 等 字段 的 提取 和 统计 ,发 现 本 文 
获取 的 26 717 篇 文献 分 布 在 1 701 种 期 刊 ,涉及 
171 637 个 作者 ,9 978 个 主题 词 。 

3.2 方法 与 模型 
(1) 高 频 主题 词 抽 取 和 共 现 矩阵 的 构造 。 为 了 确 
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主题 演化 趋势 


图 1 主要 研究 思路 与 框架 


定 高 频 Mesh 主题 词 ,本 文采 用 站. Yang 等 使 用 的 
高 低频 词 边 界 公式 来 确定 主题 词 的 频次 阔 值 ,如 下 
所 示 : 


T=(-1+ V+8*/ /2) (1) 
其 中 ,7 是 仅 出 现 一 次 的 主题 词 数量 ,T 是 高 频 词 
中 最 小 的 频次 闵 值 。 根 据 此 边界 公式 获取 主题 词 的 频 
次 阔 值 ,从 题 录 数 据 的 摘要 中 获取 高 频 Mesh 主题 词 ， 
并 在 BICOMB 系统 中 构建 主题 词 共 现 和 矩阵 。 
(2) 基于 优化 网 络 模块 度 的 社 群 探测 。 社 群 是 由 
一 群 高度 聚 集 .联系 紧密 的 节点 聚集 组 成 的 ,是 一 种 介 
于 宏观 和 微观 之 间 的 网 络 特征 ,也 是 社会 网 络 中 的 常 
见 现 象 ”。 对 于 真实 网 络 , 属 于 同一 个 社 群 的 节点 更 
有 可 能 具有 相似 或 相近 的 功能 , 社 群 结构 可 以 帮助 人 
们 理解 网 络 结构 和 功能 之 间 的 关系 。 最 具 代 表 性 的 社 
群 识别 算法 是 M. E. J. Newman! 提出 的 基于 优化 网 
络 模块 度 ( Modularity ) 方 法 ,模块 度 是 一 种 可 以 衡量 网 
络 划分 好 坏 的 指标 ,也 叫 Q 值 ,其 计算 方法 如 下 : 


os —< 
BAIA, RHE, CSR, F. AT SNA fo DMR 方法 的 高 血压 主题 探测 与 演化 趋势 比较 研究 [J]. bina Men tie a 
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Q= 5,(e, -a) (2) 
其 中 ,e, 表 示 社 群 i 和 社区 j 之 间 的 边 数 占 总 边 
数 的 比率 ;a; = 及, ey 表示 有 一 个 端点 在 社 群 i 中 的 边 
占 边 总 数 的 比率 。 从 本 质 上 来 说 ,基于 模块 度 的 算 
法 是 根据 边 的 中 介 性 和 模块 度 的 变化 进行 社区 识 
别 。 由 于 共 词 网 络 中 的 节点 就 是 主题 词 ,确定 社 群 
代表 主题 的 过 程 就 转化 为 寻找 核心 节点 的 过 程 , 少 
数 核心 节点 代表 了 社 群 对 应 的 科研 主题 。 在 复杂 网 
络 中 ,节点 的 重要 性 指标 有 很 多 ,除了 传统 的 中 心 
BE ,声望 等 指标 ,还 有 PageRank 值 。 这 些 指标 都 从 网 
络 全 局 层面 ,考虑 计算 每 一 个 节点 在 整个 网 络 中 的 
边 数 .中 心性 以 及 与 其 他 节点 的 连接 情况 ,从 而 判断 
出 核心 节点 。 
一 (3 ) 狄 利克 雷 多 项 回归 主题 模型 。 狄 利克 雷 多 项 
回 晤 主题 模型 是 D. Mimno 和 A. McCallum” 在 DD. 
MesBlei 提出 的 LDA 模型 的 基础 上 扩展 和 衍生 而 来 
的 罗 该 模型 主要 通过 调节 观察 到 的 文档 特征 来 获取 不 
后 又 件 下 的 主题 分 布 ,本 文 把 高 血压 文献 出 版 的 时 间 
优 汶 变量 ,探讨 主题 随 着 时 间 的 变化 趋势 。DMR 主题 
模 台 图 如 图 2 Bi: 


NOD OOO OD 
[| a 

N Ol r 

> i 


x< A2 狄 利克 雷 多 项 回归 主题 模型 


ee 

据 的 特征 向 量 ,a 是 可 观察 的 文档 特征 的 函数 ,表示 主 
题 锥 先 验 概率 分 布 ;给 定 先 验 概率 分 布 N(0,) , 超 参 
数 B, 文 档 和 词语 的 生成 过 程 如 下 : 

For each topic ¢,draw ọ, ~ Dir(B). Dir(B) 是 与 先 
前 的 狄 利克 雷 分 布 不 同 的 主题 - 词语 分 布 ; 

For each document d, draw 0, ~ Dir(a,) = Dir( exp 
(ry) ) ,Tse 7， 对 于 每 一 个 文档 的 a, 狄 利克 雷 分 布 
的 参数 和 r, 是 协 方差 函数 f(y,,xi) ,其 中 y, 是 文档 d 
的 观察 属性 向 量 ,x, 是 元 数据 的 向 量 ; 

For each word w, draw z4 „ ~ Multi(0,). zi 是 词语 
t, 的 主题 分 配 ,0, 是 文档 d 属于 某 个 主题 的 比例 ;draw 
Tiu ~ Multi(g.,). TD, 是 文档 d 的 第 w-th 个 单词 ,9p， 
是 主题 1 的 偏好 ,9,, =1。 

在 DMR 主题 模型 中 ,我 们 设置 三 个 固定 参数 :07， 
先前 分 布 的 参数 值 的 方差 ;B, 狄 利克 雷 主题 - 词语 分 
布 ;1TI ,主题 的 个 数 。 


4 ”分 析 与 结果 


势 分 析 

根据 高 低频 词 边界 公式 (1) 计 算 , 可 得 到 频次 边 
界 为 77。 为 了 更 好 的 实现 可 视 化 ,我 们 删除 了 频次 阔 
值 为 77 以 下 的 点 和 与 其 他 节点 没有 链接 的 节点 , 共 得 
到 632 个 顶点 ,对 高 频 词 构造 共 现 矩 阵 。 为 减少 其 复 
ARE ,选取 前 100 个 顶点 ,可 得 到 4 950 条 边 。 顶 点 是 
指 由 文章 衍生 而 来 的 生物 实体 , 边 表示 实体 之 间 的 关 
系 , 边 的 权重 表示 两 个 实体 在 文章 特定 句子 中 共同 出 
现 的 频率 。 导 入 Gephi, 利用 社区 探测 算法 "对 其 进 
行 可 视 化 ,如 图 3 所 示 : 
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E 3 di 4 Ke oN Body Mass Ir ge Y 
Dwe K 3 A tikapa C 人 Multivariate Aralysis \ P~ 
À A esetoml Sies pues Mes 
Genetic Predi@pion to Disease Abe rit snd Poo) — a. 
Bats, Lid WEY h o.. aA S Wu 
v TF. F 
Rats, hid SHR Y : 
3 高 血压 文献 社 群 和 热点 主题 探测 
(1) 关 键 节点 识别 。 为 了 识别 高 血压 医学 文献 中 


最 核心 的 生物 实体 ,我 们 以 4 个 著名 的 中 心 指标 来 分 
析 前 10 个 中 心 节 点 :pagerank 值 .加 权 中 心性 、 接 近 中 
心性 .中间 中 心性 , 见 表 1。 详 细 的 中 心 度 测量 是 通过 
S. Wasserman |"! 和 S. Brin "提出 的 方法 。 

PageRank 是 基于 其 传人 连接 数量 的 总 和 来 估计 一 
个 特定 节点 的 重要 性 。 表 1 展示 了 PageRank 值 排 
名 前 10 的 实体 。 平 均 PageRank 值 是 0. 01, PageRank 
值 排名 靠 前 的 生物 实体 类 似 于 加 权 中 心 度 排 名 靠 前 的 
实体 ,10 个 实体 有 8 个 一 样 ,但 是 排名 顺序 有 变化 。 而 
且 ,PageRank 有 独一无二 的 生物 实体 ,比如 说 rates 仅 
出 现在 排名 前 10 的 PageRank 值 中 。 

特定 节点 的 度 中 心 度 是 指 连接 到 该 节点 的 边 的 数 
量 ,而 加 权 中 心 度 是 度 中 心 度 的 扩展 ,通过 某 一 个 特定 
节点 的 每 个 节点 对 的 频率 来 计算 ;中 间 中 心 度 被 定义 
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为 通过 给 定 节 点 的 最 短路 径 的 数量 ;接近 中 心 度 表 示 
从 一 个 特定 节点 到 网 络 中 所 有 其 他 节点 的 总 距离 之 和 


的 倒数 ,表示 该 节点 在 网 络 中 的 可 扩展 性 。 表 1 描 
述 了 各 中 心 度 排名 前 10 的 生物 实体 。 平 均 加 权 度 是 


23. 427 ;平均 中 间 中 心 度 是 78. 17 ,平均 接近 中 心 度 是 
0.4。 加 权 中 心 度 和 中 间 中 心 度 排 名 前 10 的 节点 中 ， 
有 7 TA, risk factor , Prospective Studies 和 Follow -up 


Pressure , Animals 和 Body Weight 仅 出 现在 中 间 中 心 度 
中 ;接近 中 心 度 排 名 前 10 的 词 与 加 权 中 心 度 完全 相 
同 。 

总 的 来 说 ,在 整个 网 络 中 处 于 关键 位 置 的 节点 主 
要 有 Hypertension , Male , Female, Age, Adult, Human , 
Risk factors , Body Weight , Blood Pressure , Animals , Pro- 


spective Studies, Follow-up studies ……: 等 ,这 些 节 点 在 


studies 这 三 个 节点 仅 出 现在 加 权 中 心 度 中 ,而 Blood  ” 社 群 分 布 图 中 也 都 处 于 比较 核心 的 位 置 。 
表 1 PageRank、 加 权 中 心性 、 接 近 中 心性 和 中 间 中 心性 排名 Top -10 节点 
Bio-entity Page Bio-entity verghi Bio-entity a Bio-entity capes 
ranks degree centrality centrality 
Animals 0.028 2 Hypertension 62.171 0 Blood Pressure 1 794.118 4 Hypertension 0.595 1 
Rats 0.023 2 Humans 60. 1870 Animals 1489. 7500 Male 0.584 3 
= Hypertension 0.022 2 Female 60. 125 0 Body Weight 1 482.000 0 Humans 0.577 4 
> Male 0.020 3 Male 60. 0320 Hypertension 449.105 9 Female 0.577 4 
Ta Humans 0.019 8 Middle Aged 59.026 0 Male 273.786 6 Middle Aged 0.574 0 
Female 0.018 9 Aged 58.248 0 Humans 211.524 5 Aged 0.574 0 
Middle Aged 0.018 5 Adult 56. 407 0 Female 211.5245 Adult 0.567 3 
e Aged 0.018 5 Risk Factors 51.198 0 Middle Aged 189.574 5 Risk Factors 0. 548 0 
( Adult 0.017 8 Prospective Studies 45.020 0 Aged 189.574 5 Prospective Studies 0.533 0 
Risk Factors 0.016 1 Follow-Up Studies 44.983 0 Adult 166.225 9 Follow-Up Studies 0.533 0 
( 
A2) 主题 社 群 探测 。 根 据 第 3 节 中 提出 的 最 优 模 ”个 主题 。 


WEAR(2), 使 用 V. D，Blondel 提出 的 模块 化 算 
法 移行 社 群 探测 ,并 将 分 辩 率 resolution 设 为 1”。 可 
以 得 到 5 个 模块 ,其 中 3 个 主要 模块 (如 图 3 rer tt, 
HEALER EE ITZ ) ， 模块 化 值 Q 是 0. 187; 平 均 加 权 度 
A2. 43; ei 282 ,可 见 度 是 28.2% ;平均 聚 类 


主题 1 主要 是 包含 与 高 血压 危险 因素 相关 的 词 ， 
比如 年 龄 ,怀孕 性别 抽烟, 肥胖, 心 梗 等 等 ;主题 E 
要 包含 高 血压 相关 的 研究 方法 和 模型 ,比如 前 瞻 性 研 
FE .随访 研究 横向 研究 .队列 研究 .回顾 性 研究 等 等 ; 
还 包括 高 血压 研究 的 一 些 指标 参数 ,例如 发 病 率 ,疾病 


AOL JE 0. 808, 和 迭代 次 数 100; 特征 向 量 中 心 度 

0.002 39; 平 均 路 径 长 度 2. 645; 直径 是 6。 选 择 
Fruchterman Reingold 布局 ,图 中 浅 蓝 色 和 紫色 的 两 个 
社区 仅 占 了 总 社区 的 1% ,可 忽略 不 计 。 因 此 ,我 们 主 
要 考虑 图 中 红色 、 蓝 色 和 绿色 的 三 个 社区 。 最 大 的 绿 
色 社 区 占 了 整个 网 络 的 42% ,包含 Risk Factors 、Aged ， 
80 and over, Prevalence „Sex Factors 、Prospective Stud- 
ies „Follow-Up Studies ,Aged, 80 and over ,Cross Sectional 
Studies „Cohort Studies…… 等 词 ; 第 二 大 社区 (红色 部 
Ay) 占 整个 网 络 的 36% ,包含 Hypertension 、humans ,fe- 
male, middle aged, Treatment Outcome , Antihypertensive 
Agents „Blood Pressure Determination :::::- 等 词 ; 第 三 大 
社区 ( 蓝 色 部 分 ) 占 整个 网 络 的 20% ,包含 animals、 
Rats, Inbred SHR RNA Messenger, Mice------ 等 词 。 通 


严重 程度 指数 .实验 预期 值 等 等 。 主 题 3 主要 包括 高 
血压 的 基本 要 素 , 比 如 性 别 .年 龄 IE CE AR, H 
小 球 滤 过 率 等 等 ;主题 4 主要 包括 疾病 诊断 的 结果 , 比 
如 诊断 效果 、 降 压 药 、 血 压 测 定 、 药 物 剂 量 反 应 关系 等 
等 。 主题 5 主要 包含 动物 .大 鼠 、RNA 、Inbred SHR 等 
指标 , 即 通过 动物 实验 对 高 血压 的 各 项 指标 进行 验证 。 
总 的 来 说 ,每 个 社区 内 的 生物 实体 都 紧密 联系 在 一 起 ， 
形成 各 种 不 同 的 与 高 血压 文献 相关 的 特定 研究 主题 。 
高 血压 文献 主题 和 社 群 分 布 见 表 2。 

(3 ) 演 化 趋势 分 析 。 将 高 血压 文献 按照 时 间 分 布 
分 为 三 个 阶段 :2000 - 2005 年 .2006 -2010 年 .2011 - 
2017 年 ,经 过 处 理 后 将 其 分 别 导 和 人 Gephi ,利用 社区 探 
测算 法 对 其 进行 可 视 化 ,探测 到 的 各 阶段 的 主题 社 群 
分 布 如 图 4(a) 4(b) 和 4(c) 所 示 , 具 体 的 主题 分 析 方 


过 人 工 判 断 和 专家 识别 ,初步 可 将 这 三 个 社区 分 成 五 
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法 同上 ,由 于 篇 幅 有 限 ,在 此 不 做 详 述 。 


AAR, Pi, OS 
(13) :82 -91. 


eee 
.Chi 
a 


iva 


He 2 


community 1 


基于 SNA 的 高 血压 文献 社 群 和 主题 分 布 


community 2 community 3 


topic 1 topic 2 topic 3 topic 4 topic 5 
危险 因素 研究 方法 基本 要 素 诊断 治疗 动物 实验 

Risk Factors 危险 因素 Prospective Studies 前 瞻 研 Hypertension 高 血压 Treatment Outcome 治疗 结果 Animals 动物 
究 

Age Factors 年 龄 因素 Follow-Up Studies 后 续 研 究 Humans 人 Antihypertensive Agents 抗 高 Rats Kit 

压 药物 

Sex Factors 性 别 因 素 Cross-Sectional Studies 交叉 Female 女性 Blood Pressure Determination Disease Models, Animal 动物 
研究 压 测 定 疾病 模型 

Smoking 吸烟 Cohort Studies 队列 研究 Male 男性 Double -Blind Method XL § Jy Rats, Inbred SHR 老鼠 , 自 交 

法 
Cardiovascular Diseases 心 Retrospective Studies 回顾 Aged 年 龄 Renin - Angiotensin System 肾 Angiotensin IL 血管 紧张 素 
管 疾 病 性 研究 素 - 血 管 紧张 素 系统 

Obesity 肥胖 证 Multivariate Analysis 多 元 分 Blood Pressure 血压 Dose - Response Relationship, RNA, Messenger RNA 信使 
Br Drug 剂量 反应 关系 

Diabetes Complications 糖尿 Logistic Models 逻辑 模型 Heart Rate 心率 Drug Therapy, Combination 药 Rats, Sprague-Dawley 

Wor ses 物 治疗 组 合 

Lites e 生活 方式 Longitudinal Studies 纵向 研 Renin 肾 素 Kidney Failure, Chronic 慢性 Mice 老鼠 

or 究 BEK 

Efke 中 风 Surveys and Questionnaires Sympathetic Nervous System 交 Time Factors 时 间 因 素 Rats ，Wistar 

© 调查 问卷 感 神经 系统 

F y Mass Index 体重 指数 Case-Control Studies 个 案 控 Genotype 基因 型 Disease Progression 疾病 进展 Nitric Oxide 一 氧化 氮 
制 研究 

Proportional Hazards Models ”Systole 收缩 压 Polymorphism, Single Nucleo- Rats, Inbred WKY 
比例 危险 模型 tide ZAE, FZHR 
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根据 可 视 化 的 分 布 图 以 及 各 项 参数 可 知 ,三 个 阶 
段 的 高 血压 主题 都 分 布 在 三 个 社 群 ,各 社 群 占 比 相对 
比较 平均 ,2000 - 2005 年 间 各 社 群 占 比 为 38% 、33% 、 
29% ,2006 - 2010 年 间 各 社 群 占 比 为 40% 、38% 、 
22% ,2011 - 2017 年 间 各 社 群 占 比 为 42% 、37% 、 
21% ;对 比 三 个 阶段 获得 的 MeSH 主题 词 ,发 现 :三 个 
阶段 中 出 现 频次 最 高 的 都 是 hypertension , male , female 
等 词 ,大 部 分 主题 词 同时 出 现在 三 个 阶段 中 ,但 是 各 阶 
段 主 题 社 群 分 布 略 有 差异 。 各 阶段 的 主题 社 群 分 布 参 
数 如 表 3 所 示 。 这 三 个 阶段 中 的 节点 平均 度 、 图 密度 
和 模块 化 参数 都 在 不 断 增 大 ,说 明 随 着 时 间 的 增长 ,各 
阶段 的 MeSH 主题 词 数量 不 断 增多 , 主题 社 群 分 布 也 
不 断 发 生变 化 。 但 是 这 种 方法 工作 量 很 大 ,并 且 难 以 
准确 探测 各 个 主题 在 每 一 个 时 间 段 的 占 比 和 主题 随时 
间 演 化 的 路 径 。 


ch 


RI 基于 SNA 方法 的 主题 社 群 分 布 参数 


2006 -2010 年 


2011 -2017 年 


2000 -2005 年 


平均 度 13.94 16. 88 20.4 
图 密度 0.141 0.171 0. 202 
模块 化 0. 126 0. 158 0.175 
平均 聚 类 系数 0. 891 0. 438 0. 869 
4.2 基于 DMR 方法 的 高 血压 热点 主题 探测 与 演化 


趋势 分 析 

(1) 热 点 主题 分 布 。 将 26 717 篇 与 高 血压 相关 的 
文献 题 录 数 据 做 如 下 处 理 :@ 词 干 化 处 至 
去 停 用 词 和 长 度 为 1 的 词 ,出 现 频率 少 于 5 次 的 词语 ; 
@ 去 高 血压 领域 的 上 位 类 词汇 ;每 篇 题 录 数 据 生成 一 
个 文本 文件 ,作为 DMR 主题 模型 的 文档 。 然 后 根据 第 
3 节 中 介绍 的 DMR 模型 和 算法 ,通过 一 个 开源 的 机 器 
学 习 语 言 处 理 包 Mallet’) 对 数据 进行 处 理 。 为 了 与 
4.1 节 中 探测 到 的 主题 形成 对 比 ,将 主题 个 数 1TI1 设 为 
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5 ,同时 调节 o M B 值 ,最 终 形成 5 个 主题 和 相关 主题 
词 。 为 了 使 识别 到 的 主题 和 主题 词 更 有 意义 ,分 别 将 
每 个 主题 展示 的 主题 - 词汇 分 布 中 的 主题 词 设 为 10 
个 .20 个 ,30 个 ,选取 10 个 出 现 比较 频繁 并 且 有 意义 
的 词 , 见 表 4。 

主题 1 包含 mice, angiotensin , renin, vacular , re- 
sponse , effects „receptor „rats 等 词 ,主要 是 要 来 描述 与 高 
血压 相关 的 动物 实验 ;主题 2 包 合 risk, factors, age 、o- 
besity „gene „women 等 词 ,主要 用 来 描述 高 血压 的 危险 
因素 ,包括 年 龄 .糖尿病 .肥胖 性别. 基 因 等 等 ;主题 3 
包含 systolic .diatolic „group ‚compare ,rate „invalid , signif- 
icant 等 词 ,主要 用 来 描述 与 高 血压 相关 的 研究 方法 ; 
主题 4 包含 patient blood , gene , treatment , results 等 词 , 
主要 用 来 描述 高 血压 基本 要 素 ; 主 题 5 包含 treatment, 


antihypertensive , theropy , coronary , mortality , medication 、 
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4 各 阶段 主题 社 群 分 布 


(a) 2000 -2005 年 主题 社 群 分 布 ; (b)2006 -2010 年 主题 社 群 分 布 ;(c) 2011 -2017 年 主题 社 群 分 布 


care .control 等 词 ,主要 用 来 描述 高 血压 的 诊断 和 治疗 。 

(2) 主题 演化 趋势 。 然 后 ,将 高 血压 文献 出 版 的 
时 间作 为 变量 ,探讨 主题 随 着 时 间 的 变化 趋势 。 统 计 
2000 年 到 2017 年 间 , 每 个 主题 的 相对 分 布 情况 ,如 下 
5 所 示 。 总 的 来 说 , 随 着 时 间 的 推移 ,每 个 主题 都 在 
不 断 发 展 变化 。 在 2000 年 的 时 候 , 主题 1 (动物 实验 ) 
和 主题 4( 基本 要 素 ) 所 占 的 比重 比较 大 ,主题 5( 诊 断 
治疗 ) 的 研究 相对 比较 薄弱 ; 随 着 时 间 的 推移 ,主题 1 
(动物 实验 ) 呈 逐渐 下 降 的 趋势 ,主题 4( 基 本 要 素 ) E 
先 下 降 再 上 升 的 趋势 ,但 是 在 5 个 主题 中 ,一 直 处 于 比 
较 重要 的 位 置 ;而 主题 5( 诊 断 治疗 ) 的 比重 逐年 增 
加 ,到 2017 年 已 经 占有 相对 重要 的 比重 ;主题 2( 危 
险 因 素 ) 发 展 比较 平稳 ,一 直 处 于 相对 重要 的 位 子 ; 
主题 3( 研究 方 法 ) 稍 有 波动 ,从 2007 年 开始 比重 逐 
年 增加 。 


一 a 
I 


ChinaX iva(E RAF! 
AIZ, 徐 健 , 巴 志 超 , F. AT SNA fo DMR 方法 的 高 血压 主题 探测 与 icine ei Nav ape ee 


(13982 =91, 
#4 ET DMR 的 高 血压 文献 主题 分 布 
Topic 1 Topic 2 Topic 3 Topic 4 Topic 5 
动物 实验 危险 因素 研究 方法 基本 要 素 诊断 治疗 
Mice Risk Systolic Patient Patient 
Renal Age Blood Antihypertensive 
Vascular Prevalence Significant Treatment Coronary 
Effects Blood Results medication 
Expression Disease Pressure Finding clinical 
Angiotensin Factors Diatolic cardiovascular Treatment 
Proteins Diabetes Compare Gene Theropy 
Response Obesity Invalid Association Mortality 
Receptor Gene Evidence care 
5 定 的 ,而 DMR 方法 也 需要 预先 设 定 主题 和 主题 词 的 个 
0.30 -4X4 Xs j ye pe 、 E she 
全 全 AAO 数 , 这 样 会 导致 一 定 的 误差 。 男 外 ,DMR 方法 可 以 较 
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FOE .基本 要 素 .诊断 治疗 和 动物 实验 这 5 个 研究 主 
BPA WEG, SNA 方法 获得 的 主题 中 , 主题 词 


Mh Terms 更 加 具体 化 ,每 个 社 群 或 主题 内 的 主题 记 
意 申 比较 明确 ,而 DMR 方法 获得 的 主题 中 ,主题 词 相 
对 紫 较 党 泛 。 比 如 说 在 主题 危险 因素 中 ,SNA 方法 识 
HR 主题 词 包括 age factors Diabetes Mellitus „sex fac- 
tais. smoking ‚cardiovascular disease , obesity „life style 等 
等 ,这 些 词 都 能 代表 比较 具体 的 危险 因素 ;而 DMR 方 
法 识别 出 的 危险 因素 的 主题 词 主 要 包括 age, Diabetes, 
obesity gene 等 ,这 些 词 更 宽泛 ,仅仅 只 能 够 代表 危险 
因素 的 各 个 大 类 。 男 外 ,在 主题 研究 方法 中 ,SNA 识别 
出 的 主题 词 不 仅 包 括 prospective studies , logistic mod- 
els „surveys and questionnaires , cross -sectional studies 等 
表示 研究 方法 的 词 ,还 包括 risk assessment ‚odds ratio, 
severity of illness index 等 指标 ;而 DMR 方法 识别 出 的 
主题 词 主要 包括 group compare rate significant 等 比较 
宽泛 的 词 。 产 生 这 种 结果 的 原因 ,一 方面 是 由 于 数据 
集 太 大 ,SNA 方法 选取 的 研究 对 象 是 出 现 频 率 最 高 的 
TOP - 100 个 主题 词 ,而 DMR 方法 采用 的 是 整个 文档 
集合 ,人 研究 对 象 不 同 ,产生 的 结果 也 会 产生 差异 ; 男 一 
方面 是 SNA 方法 获取 的 社 群 主题 数目 是 人 为 主观 确 


= 


题 发 生 的 变化 和 演化 趋势 ;而 基于 DMR 主题 模型 的 方 
法 可 以 探测 不 同 主题 在 每 一 个 时 间 段 的 占 比 ,以 及 主 
题 随 时 间 的 演化 情况 ,在 探索 主题 演化 趋势 的 过 程 中 
也 比较 有 优势 。 为 了 将 通过 SNA 方法 和 DMR 方法 获 
得 的 主题 和 演化 进行 对 比分 析 , 本 文 在 4.1 节 和 4.2 
节 中 均 将 探测 的 主题 数 设 为 5 个 。 但 是 ,这 种 人 为 设 
置 主题 数目 和 主观 判断 的 方式 可 能 存在 一 定 的 误差 ， 
这 也 是 我 们 下 一 步 需要 解决 和 探讨 的 问题 。 

总 的 来 说 ,SNA 方法 和 DMR 主题 模型 在 探测 慢 病 社 
群 和 主题 演化 趋势 方面 有 不 同 侧重 ,SNA 方法 获取 的 主题 
词 更 加 具体 和 明确 ,而 DMR 方法 获取 的 主题 词 比较 宽泛 ， 
需要 人 工 解读 ,但 是 在 探索 各 个 主题 的 演化 趋势 方面 比较 
有 优势 。 若 将 二 者 结合 起 来 ,同时 从 中 、 微 观 层面 探索 知 
识 网 络 的 社 群 和 主题 演化 趋势 , 即 可 相辅相成 。 


本 文 分 别 从 中 观 层面 采用 社会 网 络 分 析 方 法 探测 
了 高 血压 文献 的 主题 社 群 分 布 和 演化 趋势 ,从 微观 层 
面 采用 狄 利克 雷 多 项 回归 主题 模型 探索 了 高 血压 文献 
的 主题 分 布 及 其 演化 趋势 ,最 后 还 比较 了 SNA 和 DMR 
两 种 方法 的 关联 与 优 缺 点 。 

研究 发 现 :四 高 血压 领域 的 研究 文献 总 的 来 说 分 为 
危险 因素 研究 方法 .基本 要 素 、 诊 断 治 疗 和 动物 实验 这 
5 个 研究 主题 ;@) 随 着 时 间 推 移 ,每 个 主题 都 在 不 断 变 
化 ,基本 要 素 的 研究 所 占 比重 一 直 比 较 大 ,动物 实验 的 
研究 逐年 减少 ,危险 因素 的 研究 发 展 比较 平稳 ,一 直 处 
于 相对 重要 的 比重 ,而 研究 方法 的 研究 稍 有 波动 ,从 
2007 年 开始 比重 逐年 增加 ;GOSNA 和 DMR 方法 探测 的 
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主题 基本 相同 ,但 主题 词 略 有 差异 ,从 宏观 上 看 ,SNA E 
题 识 别 效 果 更 好 ,主题 词 更 加 集中 ,但 是 DMR 在 探测 主 
题 演 化 趋势 方面 有 优势 ,二 者 可 结合 使 用 ,效果 更 佳 。 

这 些 研 究 可 以 帮助 刚刚 接触 高 血压 领域 的 研究 者 
了 解 该 领域 概况 ,发现 该 领域 的 研究 热点 和 预测 研究 
前 沿 ,促进 领域 专家 之 间 进 行 领域 内 部 和 跨 领 域 的 知 
识 交流 ,帮助 决策 者 跟 进 高 血压 领域 知识 的 流动 情况 。 
同时 ,本 文中 的 社区 探测 和 主题 演化 趋势 的 分 析 方 法 
可 以 扩展 到 慢 病 其 他 领域 ,比如 说 糖尿 病 、 心 血管 疾 

本 文 有 一 定 的 局 限 性 ,DMR 主题 模型 在 探测 潜在 
主题 的 时 候 , 需 要 预先 设 定 主 题 的 数量 ,通过 文档 困惑 
度 ”确定 的 主题 数目 比较 大 ,在 此 不 合适 ,因此 ,本 文 
ben 识别 的 主题 数量 是 主观 确定 的 ,可 能 存在 一 定 的 
误 爱 ;另外 ,本 文 还 缺少 对 社 群 或 者 主题 内 部 结构 的 关 
联 探测 ,这 也 是 下 一 步 需要 做 的 工作 。 
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Comparative Analysis of the Topic and Evolution Trend of 
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Oabstract ; [ Purpose/ significance | Exploring the topic and evolution trend of hypertension literature is of great sig- 
nificance for users to understand the profile, research hot-spots and frontiers of chronic disease, and can promote the 
knowledge communication among experts. [ Method/ process | This paper takes the Hypertension and 26717 articles from 
PubMed database as the research object, extracts high-frequency Mesh Terms to construct a co-occurrence matrix. Social 
network analysis is applied to detect the community and topic distribution of the hypertension study literature, and the ex- 
panded topic modeling Dirichlet-multinomial regression is also used to explore the topic distribution and evolution trends. 
Then similarities and differences of the SNA and DMR method in topic detection are analyzed. [ Result/conclusion | It is 
found that the hypertension literature is mainly concentrated on three communities, which can be divided into five research 
topics, such as risk factors, research methods, basic situation of patients, diagnosis and treatment, and animal experi- 
ments. The relative distribution of the topic varies with time change. It is also found that the topic obtained from SNA and 
DMR are basically similar. But the Mesh Terms obtained from SNA method are more specific and clearer, while the DMR 
is more broadly and have an advantage in exploring the evolution of various themes. 


Keywords: hypertension community detection SNA DMR topic model evolution trend 
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